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复杂 大 交通 场景 弱小 目标 检测 技术 
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摘 要 : 针对 现 有 基于 大 数据 和 深度 学 习 的 目标 检测 框架 对 于 高 分 辩 率 复杂 大 场景 中 低 分 准 率 小 目标 识别 效果 较 差 ， 
多 目标 检测 的 精度 和 实时 性 难以 平衡 的 问题 ,改进 了 基于 深度 学 习 的 目标 检测 框架 SSD(single shot multibox detector)， 
提出 一 种 改进 的 多 目标 检测 框架 DRZ-SSD (DRZ)， 将 其 专用 于 复杂 大 交通 场景 多 目标 检测 。 检 测 以 从 粗 到 细 的 策略 
进行 , 分 别 训练 一 个 低 分 准 率 粗略 检测 器 和 一 个 高 分 辩 率 精细 检测 器 ,对 高 分 状 率 图 像 进 行 下 采样 获得 低 分 辩 率 版 本 ， 
设计 了 一 种 基于 增强 学 习 的 动态 区 域 放 大 网 络 框 架 (DRZN)， 动 态 放 大 低 分 辨 率 弱 小 目标 区 域 至 高 分 辨 率 再 使 用 精细 
仿 测 器 进行 检测 识别 ， 剩 余 图 像 区 域 使 用 粗略 检测 器 进行 检测 ， 对 弱小 目标 的 检测 与 识别 精度 以 及 运算 效率 的 提高 效 
果 明 显 ; 采用 模糊 冰 值 法 调整 自 适 应 阅 值 策略 在 避免 适应 数据 集 的 同时 提高 模型 的 决策 能 力 ， 显 著 降 低 检 测 漏 警 认 和 
虚 警 率 。 实 验 表明 ， 改 进 后 的 DRZ-SSD 在 应 对 弱小 目标 、 多 目标 、 杂 乱 背 景 、 庶 挡 等 检测 难度 较 大 的 情况 时 ， 均 能 
获得 较 好 的 效果 。 通 过 在 指定 数据 集 上 测试 ， 相 比 于 其 他 基于 深度 学 习 的 目标 检测 框架 ， 各 类 目标 识别 的 平均 准确 率 
提高 了 4~15%， 平 均 准 确 率 均 值 提高 了 约 9~16%， 多 目标 检测 率 提 高 13~34%， 检 测 识 别 速 率 达 到 38 帧 /$， 实 现 了 算 
法 精度 与 运行 速率 的 平衡 。 
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Abstract: Aiming at the problems that the existing target detection framework based on big data and depth learning has poor 
recognition effect on low-resolution small targets in high-resolution complex large-field scenes, and the accuracy and real-time 
performance of multi-target detection are difficult to balance, improve the single shot multi-box detector based on depth 
learning, and propose an improved multi-target detection framework DRZ - SSD (dynamic region zoom - in, DRZ), which is 
dedicated to multi-target detection in complex large traffic scenes. The detection is carried out in a coarse-to-fine strategy, 
training a low-resolution coarse detector and a high-resolution fine detector respectively, downsampling the high-resolution 
image to obtain a low-resolution version, designing a dynamic region zoom - in network based on enhanced learning, 
dynamically enlarging the low-resolution small target region to a high-resolution and then using the fine detector to carry out 
detection and identification, and detecting the remaining image region by using the coarse detector, so that the detection and 
identification accuracy of the small target and the improvement effect of the operation efficiency are obvious; Adopting fuzzy 
threshold method to adjust the adaptive threshold strategy can not only avoid adapting to the data set but also improve the 
decision-making ability of the model and significantly reduce the detection missed alarm rate and false alarm rate. 
Experiments show that the improved drz - SSD can achieve good results when dealing with weak targets, multi - targets, 
cluttered background, occlusion and other difficult detection situations. Through testing on the specified data set, compared 
with other target detection frameworks based on in-depth learning, the average accuracy rate of various types of target 
recognition has increased by 4~15 %, the average accuracy rate has increased by 9~16 %, the multi-target detection rate has 
increased by 13~34 %, and the detection and recognition rate has reached 38 frames / s, realizing the balance between the 
accuracy of the algorithm and the running rate. 

Key words: machine vision; deep learning; neural network; traffic scene multi-target detection; reinforcement learning; 
self-adaptation 


0 引 域 的 核心 技术 ， 有 着 重要 的 研究 意义 趾 。 
深度 学 习 为 基于 深层 人 工 神经 网 络 的 学 习 方法 ， 基 于 深度 
交通 场景 中 的 行人 、 和 车 辆 目标 检测 与 识别 是 目标 检测 技术 学习 的 目标 检测 算法 可 应 用 于 多 种 检测 场景 ， 综 合 性 强 ， 能 够 
的 重要 分 支 ， 是 自动 鸭 驶 、 机 器 人 以 及 智能 视频 监控 等 研究 领 ” 同时 检测 和 识别 多 类 目标 ， 主 动 性 好 。 各 种 类 型 的 人 工 神 经 网 
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络 结构 中 ， 深 度 卷 积 网 络 具有 强大 的 特征 提取 能 力 ， 越 来 越 多 
的 用 于 图 像 分 类 的 网 络 结构 被 提出 ， 不 断 提升 了 深度 卷 积 网 络 
在 特征 提取 方面 的 优势 ， 在 图 像 识别 、 图 像 分 割 、 目 标 检测 、 
场景 分 类 等 视觉 任务 中 , 取得 了 非常 好 的 效果 外。 Faster RCNN 
蔡 代 掉 费时 的 selective search 方法 ， 速 度 提高 了 ，RPN 产生 的 
region proposal 质量 高 ， 准 确 率 (mAP) 也 提高 了 ， 但 是 NPR 
产生 的 在 图 像 边缘 的 region proposal 信息 被 入 弃 了 。YOLODGI 
将 物体 检测 作为 回归 问题 进行 求解 ， 整 个 检测 网 络 pipeline 简 
单 , 且 训练 只 需 一 次 完成 , YOLO 在 训练 和 推理 过 程 中 能 “看 到 ” 
整 张 图 像 的 整体 信息 ， 背 景 误 检 率 低 ,而 基于 region proposal 的 
物体 检测 方法 (如 Fast RCNN) 在 检测 过 程 中 ， 只 “看 到 ” 候 
选 框 内 的 局 部 图 像 信 息 ,但 是 识别 物体 位 置 精 准 性 差 ， 召 回 率 
低 ， 尤 其 是 对 小 目标 和 密集 目标 检测 识别 效果 差 。 

SSD， 全 称 single shot multibox detectorBl， 是 Liu Wei 在 
ECCYV 2016 上 提出 的 一 种 目标 检测 算法 , 截至 目前 是 主要 的 检 
测 框架 之 一 ， 相 比 Faster RCNN 届 有 明显 的 速度 优势 ， 相 比 
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针对 SSD 存在 的 复杂 大 场景 下 对 于 低 分 辨 率 弱小 目标 检 
测 困难 问题 , 本 文 提 出 了 一 种 动态 区 域 放 大 网 络 框架 (DRZN )， 
该 网 络 框架 通过 对 高 分 辨 率 大 场景 图 像 进行 下 采样 ， 降 低 了 旧 
标 检 测 的 计算 量 ， 同 时 通过 动态 区 域 放大 保持 了 高 分 辩 率 图 像 
中 低 分 辩 率 弱小 目标 的 检测 精度 ， 对 弱小 目标 的 检测 与 识别 精 
度 的 提高 效果 明显 。 检 测 以 从 粗 到 细 的 方式 进行 ， 首 先 对 图 像 
的 下 采样 版 本 进行 检测 ， 然 后 对 被 识别 为 可 能 提高 检测 精度 的 
区 域 顺序 放大 至 较 高 分 辨 率 版 本 再 进行 检测 。 该 方法 建立 在 增 
强 学 习 的 基础 上 ， 由 一 个 放大 精度 增益 回归 网 络 仆 ( R-net ) 和 一 
个 放大 区 域 动态 选择 算法 (Zoom-in Region Choose) 两 部 分 组 
成 ， 前 者 学 习 粗 检测 和 精 检 测 之 间 的 相关 性 ， 并 预测 放大 区 域 
的 精度 增益 ， 后 者 依据 前 者 学 习 和 预测 结果 动态 选择 需要 被 放 
大 的 区 域 。 

首先 对 图 像 的 下 采样 版 本 执行 粗略 检测 ， 以 降低 运算 量 提 
高 运行 效率 ， 然 后 顺序 地 选择 可 能 存在 低 分 辩 率 小 目标 的 区 域 


YOLODG 又 有 明显 的 平均 准确 率 均 值 (mAP) 优势 。SSD 具有 
如 下 主要 特点 :从 YOLO 中 继承 了 将 detection 转化 为 regression 
的 思路 ， 同 时 一 次 即 可 完成 网 络 训练 ， 基 于 Faster RCNN 中 的 
anchor， 提 出 了 相似 的 prior box; 加 入 基于 特征 金字 塔 中 


(Pyramidal Feature Hierarchy ) 的 检测 方式 , 相当 于 半 个 FPNIOI 


思路 。 尽管 SSD 在 特定 数据 集 上 已 经 取得 了 较 高 


的 准确 率 ， 


有 较 好 的 实时 性 ， 但 是 模型 的 训练 过 程 非 常 耗 时 ， 对 训练 样本 
的 质 和 量 依赖 严重 ; 通过 图 像 的 颜色 、 边缘 等 信息 来 检测 目标 ， 
其 对 于 弱小 目标 和 大 面积 距 挡 目标 等 缺乏 图 像 信 息 的 目标 检测 
效果 不 佳 ， 算法 检测 效率 仍然 有 待 提高 ， 以 满足 装备 运行 实时 
性 的 要 求 。 

本 文 针 对 复杂 大 交通 场景 下 行人 、 车 辆 目标 检测 任务 的 特 
点 和 需求 ， 对 传统 SSD 算法 进行 了 以 下 两 点 改进 : 1) 利用 增 
强 学 习 和 顺序 搜索 方法 ， 结 合 大 交通 场景 目标 检测 任务 的 特点 
和 需求 ， 提 出 了 一 种 动态 区 域 放大 网 络 框架 (Dynamic Region 
Zoom-in Network,DRZN )， 该 网 络 框架 通过 下 采样 图 像 ， 大 由 
降低 了 运算 量 ， 同 时 通过 动态 区 域 放 大 保持 了 高 分 辨 率 图 像 中 
不 同 尺寸 目 标的 检测 精度 ， 对 低 分 状 率 弱小 目标 的 检测 与 识别 
精度 提高 效果 明显 ， 降 低 检 测 漏 警 率 ; 2) 针对 SSD 检测 固定 
置信 度 阔 值 不 够 灵活 的 缺陷 ， 采 用 模糊 闪 值 法 调整 自 适 应 阔 值 
策略 在 避免 适应 数据 集 的 同时 提高 模型 的 决策 能 力 ， 显 著 降 低 


1 ”动态 区 域 放大 网 络 框架 


SSD 采用 了 特征 金字 塔 结构 进行 检测 ， 即 检测 时 利用 1 


进行 放大 操作 然后 分 析 来 保证 对 低 分 辩 率 小 目标 的 识别 精度 。 

用 强化 学 习 方法 从 检测 精度 和 计算 成 本 两 个 方面 对 放大 奖励 
进行 建 模 , 并 动态 选择 一 系列 区 域 放 大 至 高 分 辨 率 再 进行 分 析 。 
算法 总 体 框架 如 图 1 所 示 。 


R-Net 
2 


= 二 


region 


图 1 动态 区 域 放大 网 络 架 构 
1.1 放大 精度 增益 回归 网 络 R-net 

顺序 搜索 。 处 理 高 分 辩 率 大 场景 图 像 的 策略 是 避免 处 理 整 
个 图 像 ， 而 是 顺序 地 检测 疑似 目标 的 小 区 域 。 


强化 学 习 (reinforcement learning ,RL)。RL 是 用 于 学 习 顺 
序 搜索 策略 的 通用 机 制 ， 因 为 它 人 允许 模型 考虑 一 系列 动作 的 效 
果 而 不 仅仅 是 单个 动作 的 效果 图。 RL 是 在 尝试 的 过 程 中 学 习 到 
在 特定 的 情境 下 选择 哪 种 行动 可 以 得 到 最 大 的 回报 。 在 很 多 场 


conv4-3, conv-7 (FC7), conv6-2, conv7-2, conv8_2, 


conv9_2 


这 些 大 小 不 同 的 feature maps， 在 多 个 feature maps 上 同时 进行 


softmax 分 类 和 位 置 回归 ， 对 弱小 目标 有 较 好 的 检测 精 


度 Pl, 但 


景 中 ， 当 前 的 行动 不 


仅 会 影响 当前 的 收益 ， 还 会 影响 之 后 的 状 


态 和 一 系列 的 收益 。RL 最 重要 的 三 个 特征 在 于 : 基本 是 以 


种 闭环 的 形式 ; 不 会 直接 指示 选择 哪 种 行动 ; 


是 在 复杂 大 交通 场景 下 对 低 分 辨 率 弱小 目标 的 检测 效果 仍然 不 


够 里 想 o 


一 系列 的 行动 和 


奖励 信号 对 之 后 的 行动 都 会 产生 较 长 时 间 的 影响 。RL 采用 的 


是 边 获得 样本 边 学 习 的 方式 ， 在 获得 样本 之 后 更 新 自己 的 学 习 
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模型 ， 利 用 当前 的 模型 来 指导 下 一 步 的 行动 ， 下 一 步 的 行动 获 。” 定 区 域 上 放大 的 精度 增益 。R-Net 在 粗 检测 和 精 检测 数据 对 上 
得 收益 回馈 之 后 再 更 新 学 习 模型 ， 不 断 夫 代 重 复 直到 学 习 模型 。 ”训练 ， 以 便 它 可 以 观察 它们 如 何 相 互 关联 以 学 习 适 当 的 精度 增 
达到 收敛 。 益 关系 中 。 

本 算法 采用 由 粗 到 细 的 检测 策略 ， 在 低 分 辨 率 下 应 用 粗 检 由 于 SSD 在 许多 计算 机 视觉 应 用 中 的 成 功 ， 使 用 SSD 作 
测 器 ， 并 利用 该 检测 器 的 输出 结果 来 指导 对 高 分 辩 率 目标 的 深 ”为 基础 检测 器 。 两 个 SSD 分 别 在 高 分 辩 率 精细 图 像 组 成 的 训练 
入 搜索 。 虽 然 粗 咯 检测 器 将 不 如 精细 检测 器 精确 ， 但 它 将 识别 。 集 和 低 分 辩 率 粗略 图 像 组 成 的 训练 集 上 进行 训练 ， 并 随后 用 作 
需要 进一步 分 析 的 图 像 区 域 ， 从 而 仅 在 有 希望 的 区 域 中 产生 高 。 黑 盒 粗略 和 精细 检测 器 。 将 两 个 预先 训练 好 的 检测 器 应 用 于 
分 辨 率 检 测 的 运算 成 本 。 算 法 主要 运用 由 两 个 机 制 组 成 : a) 学 ”组 训练 图 像 并 获得 两 组 图 像 检测 结果 下 采样 图 像 中 的 低 分 辨 
习 粗 检测 器 和 细 检 测 器 之 间 的 统计 关系 的 机 制 ， 以 便 在 给 定 粗 

率 检测 记 d ,已 ,大 外 和 在 每 个 图 像 的 高 分 辩 率 版 本 中 的 高 分 关 
检测 器 输出 的 情况 下 预测 哪些 区 域 需要 放大 ; b) 用 于 在 给 定 粗 |( ) = 
略 检测 器 输出 和 需要 由 精细 检测 器 分 析 的 区 域 的 情况 下 选择 要 本 

率 检测 和 (d*,p“ 儿 其 中 4d 是 检测 边界 框 ，p 是 作为 目标 对 象 的 
以 高 分 辩 率 分 析 区 域 的 序列 的 机 制 。 ed 人 Sn 

本 文 策略 可 以 被 表述 为 马尔 可 夫 决策 过 程 。 在 每 个 步骤， ”概率 ,表示 相应 检测 的 特征 向 量 ,使 用 上 标 (High) 和 1(Low) 
系统 先 观察 当前 状态 ,估计 采取 不 同行 动 的 潜在 成 本 感知 回报 ， 。 来 表示 高 分 辩 率 和 低 分 辩 率 〈 下 采样 ) 图 像 。 

并 选择 具有 最 大 长 期 成 本 感知 回报 的 行动 中 。 要 素 包 括 : 为 了 使 模型 判别 高 分 辨 率 检测 是 否 改善 了 整体 检测 结果 ， 
a) 动作 。 该 算法 以 高 分 辩 率 依次 分 析 具 有 高 放大 回报 的 区 ”引入 了 一 个 匹配 层 ， 将 两 个 检测 器 产生 的 检测 结果 关联 起 来 。 
域 。 在 此 上 下 文中 , 动作 对 应 于 选择 要 以 高 分 辩 率 分 析 的 区 域 。 ”在 该 层 中 ， 如 果 发 现下 采样 图 像 中 的 可 能 对 象 i 和 高 分 辩 率 图 
每 个 动作 可 以 由 向 量 ( xz yw, 有) 来 表示 其 中 (Xx,y) 表 示 指定 ” 像 中 的 可 能 对 象 具有 足够 大 的 交集 Jov( 必 ,dy) 

(IoU > 0.5 ), 则 定义 i 和 jj 为 彼此 对 应 。 按照 规则 对 粗 检测 
区 域 位 置 ， (wh) 表示 指定 区 域 的 大 小 。 在 每 个 步 又 中 ， 该 算 a . 2 


方案 和 精 检 测 方案 进行 匹配 ， 并 生成 它们 之 


间 的 一 组 对 应 关系 


法 根据 潜在 的 长 期 奖励 对 采取 一 组 潜在 的 动作 (矩形 区 域 的 列 。 中。 
表 ) 进 行 评分 。 | | 
b) 状 态 集 。 表 示 编码 两 种 类 型 的 信息 : 待 分 析 区 域 的 预测 精 给 定 一 组 对 应 关系 {2 PP, 让 并 ， 可 以 估计 粗 检 测 的 
度 增益 ; 以 及 已 经 以 高 分 状 素 分 析 的 区 域 的 历史 (同一 区 域 不 应 放大 精度 增益 。 检 测 器 只 能 处 理 一 定 范围 内 的 对 象 ， 因 此 将 检 
被 多 次 放大 )。 本 文 设计 了 一 个 放大 精度 增益 回归 网 络 (R-net) 测 器 应 用 于 高 分 辩 率 图 像 并 不 总 是 产生 最 佳 精度 。 例 如 ， 如 果 
来 学 习 信息 精度 增益 图 (AG map) 作 为 状态 表示 。AG map 具有 ”检测 器 主要 在 小 目标 数据 集 上 训练 ， 则 该 检测 器 对 较 大 目标 的 
与 输入 区 司 的 宽度 和 高 度 。 中 的 每 个 像素 也 已 
We 检测 精度 并 不 高 。 因 此 ， 使 用 |& P|--|g 一 网 | 来 测量 哪个 检 
以 ，AG map 提供 了 用 于 选择 不 同 动作 的 检测 精度 增益 。 在 采 “， 测 结果 (粗略 或 精细 ) 更 接近 事实 ， 其 中 gt s {o.1} 作为 真实 标签 
取 动作 之 后 ， 对 应 于 AG 映射 中 所 选区 域 的 值 相应 地 减 小 ， 因 “的 度量 。 当 高 分 辩 率 分 数 pt 比 低 分 辨 率 分 数 p! 更 接近 基本 事 
此 AG 映射 可 以 动态 地 记录 动作 历史 。 实时 ， 该 函数 表示 此 目标 值得 放大 ， 和 否则 ， 在 下 采样 图 像 上 应 
o) 损 失 回 报 函 数 。 状 态 对 放大 每 个 图 像 子 区 域 的 预测 精度 。 ”用 粗略 检测 器 可 能 产生 更 高 的 精度 ， 因 此 我 们 应 该 加 免 放 大 该 
增益 进行 编码 。 为 了 在 有 限 的 计算 量 下 保持 高 精度 ， 定 义 了 标 。 使 用 相关 回归 (CR) 层 来 估计 目标 的 放大 精度 增益 
个 损失 回报 函数 如 式 1。 给 定 状态 和 动作 ， 损 失 回报 函数 通过 | , A 
A minlles =Pil-les = Pl -GW A) 
其 中 : 2 代表 回归 函数 ，Wi 代表 参数 集 。 该 层 的 输出 是 估计 的 
Siaters Csions ) 二 a pi|-|gi 一 |- 入 (0) | | 
确 度 增益 。CR 层 包含 两 个 完全 连接 的 层 ， 第 一 层 有 4096 个 
让 本 汉人 必 号 坟 计生 放 上 人 二 认 ea 单元 ， 第 二 层 只 有 一 个 输出 单元 。 
下 表示 对 同一 目标 粗略 检测 器 和 精细 检测 器 的 目标 检测 分 Re 
数 ， 且 8g, 是 对 应 的 目标 真实 标签 。 变量 表示 所 选区 域 中 的 像 。 增益 具有 同等 的 贡献 。 因 此 ，AG map 生成 为 
素 的 总 数 ，B 表示 输入 图 像 的 像素 的 总 数 。 式 中 第 一 项 表示 检 gD) 
测 精度 的 提高 。 第 二 项 表示 放大 成 本 。 精 度 和 计算 之 间 的 平衡 AG(wy)=1® BW G) 
参数 1 控制 。 0 otherwise 
放大 精度 增益 回归 网 络 (R-Net) 基于 粗略 检测 结果 预测 特 ”其 中 (xX, y) 表示 点 CX,y) 在 边界 框 4 内 ，b， 表 示 包 含 在 
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di 中 的 像素 数 。C 是 一 个 常数 。 做 表示 CR 层 的 估计 参数 。 


AG map 用 作 状 态 表 示 ， 它 自然 包含 粗略 检测 质量 的 信息 。 在 
对 区 域 进行 放大 和 检测 后 ， 区 域内 的 所 有 值 均 设 置 为 0， 以 防 
止 未 来 在 同一 区 域 再 次 进行 缩放 。 放 大 精度 增益 回归 网 络 R-net 
结构 图 如 图 2 所 示 


图 2 RNet 网 络 框架 
1.2 放大 区 域 动态 选择 算法 

通过 R-net 获得 了 AG map，AG map 中 的 每 个 像素 的 值 是 
对 输入 图 像 中 包括 那个 像素 可 以 提高 多 少 检测 精度 的 估计 。 所 
以 ，AG map 提供 了 用 于 选择 不 同 动作 的 检测 精度 增益 。 在 采 
取 动 作 之 后 ， 对 应 于 AG 映射 中 所 选区 域 的 值 相应 地 减 小 ， 因 
此 AG 映射 可 以 动态 地 记录 动作 历史 。 依 据 AG map 提出 了 一 
种 动态 放大 区 域 选择 算法 ， 具 体 算法 流程 如 图 3 所 示 。 


BE 
加 区间 
. [it 
Region 1 Bounding box 


pa 


AGmap 


Predict Bounding box 


图 3 动态 放大 区 域 选 择 流程 

首先 将 AG map 按照 8x8 网 格 划 分 为 等 额 矩形 区 域 ， 统 计 
每 个 矩形 中 像素 值 的 总 和 ， 设 定 阔 值 ， 选 择 区 域 中 心 块 ， 每 个 
区 域 中 心 块 为 中 心 的 3x3 个 矩形 构成 放大 第 选区 域 ， 同 一 个 放 
大 筛选 区 域 类 如 有 多 个 满足 像素 值 阔 值 条 件 的 矩形 区 域 ， 取 像 
素 值 最 大 的 那个 作为 区 域 中 心 ， 如 果 区 域 中 心 取 在 大 正方 形 的 
边 
选 


x 


个 入 


uh 


上 ， 通 过 增补 同 尺寸 空白 小 正方 形 的 方式 构成 3x3 的 放大 得 
区 域 。 在 放大 筛选 区 域内 ， 以 放大 筛选 区 域 中 心 点 为 中 心 ， 
按照 不 同 的 长 宽 比 ， 构 造 4 个 不 同 长 宽 比 的 预测 包围 盒 ， 通 过 

面 


NS 


代表 和 矩形 区 域 rtgi; 的 放大 收益 越 大 ， 将 高 放大 收益 的 区 域 作 为 
中 心 符合 人 眼 对 区 块 领域 相关 性 的 认识 。 通 过 二 阶 差分 法 自 适 


应 选取 像素 值 冰 值 ， 完 成 区 域 中 心 块 的 初 筛选 。 二 阶 差分 可 以 
表现 离散 数组 的 变化 趋势 大 小 ， 可 用 于 在 一 组 像素 值 中 确定 阔 


值 。 检 测 一 张 AG map 默认 得 到 64 个 候选 区 域 ， 

最 后 每 个 候选 区 域 都 得 到 1 个 用 来 表示 放大 收益 的 总 体 
像素 值 swpxz, 故 共 可 以 得 到 的 64x1 的 数组 , 舍 去 其 中 小 于 0.1 
的 元 素 ， 判 为 没有 目标 ， 得 到 nx1l1 的 数组 C 。 设 估计 swnpxi 
大 减 小 变化 趋势 的 函数 为 hg) ， 见 式 5 

fe) Ge 

则 将 RCD 取 最 大 值 时 的 Cx 作为 此 AG map 图 像 的 sumpxi 
闵 值 。 
为 了 减少 区 域 放 大 精 检 测 的 计算 量 ， 有 效 提高 算法 的 效率 


,k=2,3,.°,n—l (5) 


和 实时 性 ， 同 时 又 要 保证 所 选区 域 有 较 好 的 包容 度 ， 以 每 个 区 
域 中 心 块 为 中 心 的 3x3 个 矩形 构成 放大 筛选 区 域 ， 同 一 个 放大 


筛选 区 域 类 如 果 有 多 个 满足 像素 值 阔 值 条 件 的 矩形 区 域 ， 取 像 
素 值 最 大 的 那个 作为 区 域 中 心 。 
以 放大 筛选 区 域 中 心 点 为 中 心 位 置 ， 按 照 不 同 的 长 宽 比 预 
测 6 个 固定 大 小 的 预测 包围 盒 , 放大 筛选 区 域 的 面积 为 gz 每 个 
预测 包围 盒 的 面积 如 式 〈6) 所 示 


Snax 
Sy = Sn + 


min 


> (kK—l) ,k=1,2,...,5 (6) 


a 
其 中 smin=0.1xSz ，smax=0.7XSz，m=5， 对 于 不 同 的 预测 包 
大 盒 赋 予 不 同 的 长 宽 比 : 


a,= Ww , d, € i 2 ; 引 (7) 
HH 2 3 
W、 五 分 别 表 示 包 围 盒 的 宽 和 长 。 则 预测 包围 盒 对 应 的 宽 
和 长 分 别 为 玖 ， = W, = Va,*s, 
当 a=1 时 还 有 一 个 预测 包围 盒 ， 规 模 为 sk = Vsi*si ， 


即 一 共有 6 个 预测 包围 盒 。 
对 于 任 一 个 包围 盒 ， bi, 计算 盒 内 的 像素 总 值 SumpXi 为 


Sum X(b) 二 px,;, {=1,2,3,4 (8) 
区 域 面积 5 为 
S (b,) =WxL (9) 


W、 矿 分 别 表 示 盒 的 宽 和 长 。 区 域内 高 放大 收益 像素 占 比 


比较 各 个 预测 包围 盒 包 含 区 域 的 构造 指标 (像素 值 、 比 例 、 
积 ) 选 出 最 佳 放大 区 域 包围 盒 。 网 格 划分 后 的 AG map 中 和 拢 形 
区 域内 rigi 的 总 像素 值 SumpXi 


= 2 Px (4) 


Jjertg; 


其 中 pi 代表 rigi 区 域内 第 j 个 像素 点 的 像素 值 ，simpxi 值 越 大 ， 


Smp Xi 


pn 
P(D)= 2 
(2) 人 (10) 


Pnj 表示 bi 区 域内 ， 具 有 放大 收益 的 像素 点 〈 即 像素 值 大 
于 0.1 的 像素 点 ) 的 总 数 ，Pnj 表示 bi 区 域 像素 点 总 数 。 即 每 一 
个 预测 包围 盒 ，bi 存 在 特征 向 量 (x,y,sumpx,W,L,P) ，x、y 分 别 
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表示 bi 的 中 心 点 横 纵 坐标 。 
利用 人 工 标定 的 训练 样本 ,训练 了 一 个 Logistic 分 类 器 00 
对 各 个 预测 包围 盒 的 框 选 效果 进行 评价 ,将 评价 结果 分 为 两 类 ， 
即 能 够 满足 放大 要 求 的 预测 包围 使 和 不 能 满足 放大 要 求 的 预测 
包围 盒 。 
对 于 输入 的 预测 包围 合 ，bi (x,y,sumpx,W,L,P)，Logistic 分 
类 器 引入 权 值 参数 CQ(91,9sK 69) ， 对 bi 中 的 属性 进行 加 权 ， 


得 到 97b: ; 引入 logistic 函数 (sigmoid 函数 ) 得 到 函数 hadb?) 
1 
h rp (11) 
即 可 得 到 概率 估计 函数 P(y | b; 9) 
hs(b,); y=1 
b;0 12 
P(y | b; 9)= 中 po Co (12) 


它 的 含义 就 是 在 给 定 测试 样本 bi 与 参数 9 时 ， 标 签 为 y 
的 概率 。 
测试 样本 集合 与 训练 样本 和 集合， 我 们 可 以 得 到 它们 的 联 
合 概率 密度 即 似 然 函数 : 


IP(y°| 5; 0)=TI(n, (6) Gh, (6) 下 (13) 


上 i=l] 


最 大 化 似 然 函 数 ， 求 出 合适 的 参数 6。 将 式 13 变形 为 


L(g)=y 如 logh, (b, ) + 人 咱 jiog(1-h, (6 ) U4 
i=l 


inaXiv 合 作 期 二 
G hinaX Wf 依 期 | 人 


率 ), 当 属于 某 类 的 置信 度 高 于 设 定 闵 值 时 则 将 此 候选 区 域 判 为 
该 类 目标 ， 若 同一 候选 区 域 有 多 个 类 别 置信 度 高 于 阔 值 则 取 最 


标尺 度 较 小 或 被 遮挡 时 置信 度 相 对 较 低 。 若 采用 固定 阔 
值 ， 设 置 过 高 会 排除 许多 真 目标 ， 过 低 会 混入 许多 假 目标 。 通 
常 的 做 法 是 不 断 调整 阔 值 对 数据 集 进 行 多 次 测试 ， ee 
闵 值 下 的 平均 准确 率 ， 取 平均 准确 率 最 大 的 闵 值 作为 模型 最 
的 阔 值 。 但 这 种 做 法 有 适应 数据 集 的 倾向 ， 再 庞大 的 数据 身 
无 法 涵盖 现实 中 的 所 有 情况 。 本 文采 用 自 适 应 阔 值 在 避免 适应 
数据 集 的 同时 提高 模型 的 决策 能 力 。 

无 论 固定 或 自 适应 ， 阐 值 的 设 定 都 需要 参考 数据 集中 目标 
得 分 情况 。 检 测 模型 训练 较 好 的 情况 下 ， 正 确 的 检测 结果 中 真 
标 和 假 目 标 置 两 个 数量 级 ， 且 真 目标 置信 度 


7 
区 


言 度 常常 相差 


通常 在 0.7 以 上 。 虽 然 与 真 目标 的 置信 度 存 在 差距 ， 但 假 目标 
也 会 因为 某 些 特征 与 目标 类 似 而 取得 0.7 以 上 的 高 置信 和 度 ， 单 
纯 采 用 固定 阔 值 无 法 将 目标 与 背景 区 分 开 001。 针 对 SSD 检测 
固定 置信 和 度 闵 值 不 够 灵活 的 缺陷 ， 采 用 模糊 自 适 应 阐 值 法 [3 
调整 自 适应 阔 值 策略 降低 漏 警 率 和 虚 警 率 。 

模糊 程度 是 由 模糊 率 函 数 来 确定 ， 当 模糊 率 最 低 的 时 候 ， 


这 时 候 分 割 效 果 最 好 。 其 中 模糊 率 与 隶属 函数 相关 ， 模 糊 数学 
的 基本 思想 是 隶属 度 的 思想 。 应 用 模糊 数学 方法 建立 数学 模型 
的 关键 是 建立 符合 实际 的 隶属 函数 02。 

检测 一 张 图 像 默 认得 到 N 个 候选 区 域 送 入 SSD， 最 后 每 
个 候选 区 域 都 得 到 M 个 用 来 表示 属于 M 个 类 别 的 置信 和 度 ， 故 
可 以 得 到 的 NN 个 Mx1 的 数组 。 取 出 每 个 数组 中 的 最 大 值 


依据 公式 ， 由 梯度 下 降 法 求 取 参 数 9。 先 对 参数 9 求 时 
5 
30 ‘(0)= (yh (8))s, (15) 
更 新 法 则 
0,:=0,+a ( yh (b0 )an) (16) 


通过 Logistic 分 类 器 对 各 个 预测 包围 盒 的 框 选 效果 进行 评 
价 后 ， 对 于 每 一 个 预测 包围 盒 我 们 都 能 够 获得 一 个 对 应 的 框 选 
平价 分 数 ， 之 后 ， 进 行 一 个 非 极 大 值 抑制 得 到 最 终 的 预测 作为 
最 终 的 放大 包围 盒 。 
在 完成 放大 包围 盒 的 选取 后 我 们 将 放大 筛选 区 域内 的 像素 
值 全 部 设 为 0, 避免 重复 选取 造成 的 效率 低下 , 同时 对 AG map 
进行 对 应 区 域 的 更 新 ， 并 检测 AG map 上 是 否 已 经 对 所 有 高 放 
大 收益 区 域 进行 检测 (AG map 像素 总 值 是 否 为 0)， 若 果 是 则 
完成 检测 ， 和 否 的 话 继续 迭代 进行 检测 过 程 。 

把 所 得 放大 精 检 测 候 选区 域 的 原 图 部 分 送 到 精细 检测 器 检 
测 之 前 ， 先 进行 双 线 性 插值 放大 ， 放 大 至 精细 检测 器 检测 候选 
区 域 的 最 小 尺寸 〈 本 文 设置 的 候选 区 域 最 小 为 10x10 )。 


2 ”置信 度 自 适应 阀 值 改进 


蔬 


在 SSD 用 Softmax 为 候选 区 域 进 行 分 类 的 最 后 阶段 ， 候 
选区 域 会 得 到 属于 各 个 类 别 的 置信 和 度 〈 即 属于 各 个 类 别 的 概 


大 到 小 排序 ， 舍 去 其 中 小 于 0.1 的 值 ( 若 N 个 值 全 部 小 于 


0.1 则 判 为 没有 目标 )， 得 到 Nx1 的 数组 C。w(x) 是 隶属 度 


函数 ，J(C ) 为 数组 C 中 置信 度 取 Ck 的 区 域 的 隶属 度 。 数 


组 C 的 模糊 率 X(C) 是 对 数组 C 的 模糊 性 度量 ， 令 h(C) 为 


数组 C 中 置信 和 度 取 Ck 的 元 素 个 数 , 则 数组 C 的 模糊 率 YX(C) 定 
义 如 式 17 


7O=2S7(cjx(cJ (17) 
nu(C)} 。 
数组 C 的 模糊 率 y(C) 取决 于 隶属 度 函 数 (x) , 车 取 隶 属 


其 中 7T(CJj=min{wA(Co),1- 


度 函 数 为 $ 函数 ， 即 


0， 0O<x<g-Ad 
(x-qt+Ag)| 
元 二 
2 0 qg—-Aq<x<gqg 
2Ag 
LO- ， as) 
(x-g+Ag) 
1-2|————— |, g<x<gt+Ag 
2Ag 
上 q+Aq<x<C, 
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则 此 时 (x) 


预先 设 定 窗 宽 , 根据 论文 前 人 的 硬 


改变 g 使 得 隶属 度 函 数 人 


窗 宽 c 二 2Aqg 及 参数 g 决定 ,一旦 选 定 了 


窗 宽 ， 则 X(C) 就 只 与 参数 9 有 关 。 模 糊 阔 值 法 的 求解 过 程 


是 
究 ， 系数 常设 定 为 0.3。 通 过 


(x) 在 置信 度 区 间 [C6,C, 1] 上 滑动 ， 


7,(C) 取 


通过 计算 模糊 率 X(C) 获得 模糊 率 曲线 ， 该 


改进 后 整体 的 检测 算 


得 极 小 值 的 g， 也 就 是 所 求 的 


线 的 谷 点 ， 即 使 


适应 阔 值 。 


法 框架 流程 如 图 


4 所 示 


/从 


Coarse Detector 


Dynamic Region Zoom-in | 


Network 
> 


es 最 
| 一 一 一 一 一 


Local ar 


Fine Detector 


ea ) 
magnification 
Pd 


图 4 改进 后 算法 整体 框架 


下 采样 获得 低 分 辩 率 版 本 


3 


3.1 


和 KITTI 数据 集 上 进行 了 实验 。 选 用 


片 身 


在 高 分 辩 素 
测 器 进行 
低 分 辩 率 图 像 中 
粗略 检测 器 进行 
测 结果 进行 融合 ， 得 到 最 


下 检测 识别 的 
目标 检测 识别 ， 


实验 结果 与 分 析 


像素 值 全 


算法 流程 如 下 : a) 输 入 待 检测 视频 单 帧 图 像 ， 将 图 像 进行 
， 降 低 运 算 量 ，b) 通 过 DRZN 对 需要 
质 序 选择 放大 ， 精 旨 
己 经 检测 过 的 区 域 在 


标 区 域 进行 
获得 结果 Ri， 


图 片 有 标注 信息 ， 而 测试 图 
VOC 数据 集 格式 的 ， 需 要 把 KITTI 数 ] 


格式 。Pascal VOC 数据 集 总 共 20 个 类 别 ， 
个 类 别 “Car” ，“Cyclist ，“Pedestrian 


其 他 类 型 的 车 和 人 ， 本 文 将 “Van”“ 


“Car” 类 别 中 去 ,将 “Person_sitting 


类 别 中 去 ，“Misc” 和 


‘Dontcare’” 


试 集中 选 出 100 张 含 低 分 辩 率 小 目标 (本文 设 定 小 目 
于 10X10 的 图 像 ), 构成 KITTI 数据 集 的 


自 


A 
o 


片 没 有 。SSD 中 训练 及 


作 期 刊 
弱小 目标 检测 技术 


本 是 基于 
做 成 Pascal VOC 的 
本 文 为 数据 集 设 置 3 
， 因 为 标注 信息 中 还 有 
Truck”“Tram ”合并 到 
”合并 到 
这 两 类 直接 忽略 。 在 测 
标尺 寸 小 
氏 分 辨 率 小 目标 测试 


局 人 


7 


“Pedestrian 


YFCC100M 数据 集 包含 将 近 1 亿 张 图 片 以 及 摘要 、 标 题 
和 标签 。 为 了 更 好 地 展示 本 文 方法 ,从 YFCC100M 数据 集 收 集 


了 1000 幅 分 辨 率 较 高 的 测试 图 像 。 通 过 


行人 人 


“道路 ”和 “车 辆 ”来 收集 图 像 。 对 于 


该 数据 集 ， 使 用 


像素 宽度 和 小 于 50 多 遮挡 对 所 有 


标 进行 注释 。 


襄 


一 侧 被 重新 缩放 到 2000 像素 ， 以 适合 GPU 内 存 。 帮 


选 出 100 张 含 低 分 辨 率 小 


仿 中 将 所 有 的 图 像 尺 寸 归 一 
3.2 ”实验 的 参数 设置 


本 文选 择 SSD 系列 中 的 SSD512 进行 改进 ，SSD512 提供 


标 〈 本 文 设 定 小 
X10 的 图 像 )， 构 成 WD 数据 集 的 低 分 辩 率 小 
化 为 320 x 320。 


标尺 寸 小 于 
标 测试 集 。 


了 大 、 中 、 小 三 个 规模 的 深度 卷 积 


经 网 络 模型 ， 本 文选 取 中 


等 规模 的 VGG_CNN_M_1024 模型 作 


为 基础 模型 


标 类 别 数目 相关 的 参数 


适应 原始 数据 外 
阔 为 0.1 (默认 设 
抑制 留 下 的 候选 区 域 数量 设置 为 100〈 
保持 默认 不 变 ， 后 续 所 有 实验 


uy 


芭 


〈 原 模型 需要 识别 20 类 
有 3 类 )。 小 样本 数据 集 在 一 定 的 程度 上 可 以 代表 原始 数据 集 ， 
通过 小 样本 数据 集训 练 所 得 的 最 优 超 参 数 在 一 定 的 程度 上 能 够 
13。 通 过 小 样本 调 参 , 在 不 
为 0.7); 将 所 


， 改 动 与 
标 而 本 文 只 


适应 闷 值 时 ， 
实验 中 经 过 非 极 大 
默认 设置 为 300)。 


注 


bp 在 以 上 设置 基础 上 进行 。 


汇 营 


终结 果 R3。 


实验 的 基础 条 件 与 数据 集 库 


本 文 实验 使 用 DELL Precision R7910(AWR7910) 图 形 工 
作 站 ， 处 理 器 为 Intel Xeon E5-2603 v2(1.8 GHz/10M)， 采 用 
NVIDIA Quadro K620 GPU 加 速 运算 。SSD 是 基于 深度 学 习 届 
架 Caffe 来 运行 的 。Caffe 支持 CPU 
得 计算 量 庞大 的 深度 学 习 得 以 在 短 


取 为 0;c) 将 剩余 低 分 辨 率 图 像 输 
标 检测 识别 ， 获 得 结果 R2; qd) 将 RI 和 Rs 检 


施 > 


评价 指标 


企 多 目标 分 类 器 的 判别 中 ， 设 


标的 种 类 数 为 n 


。 对 单 种 


一 
人 ll 


和 GPU 
期 内 完成 。 


的 并 行 运算 , 使 


[a 


本 文 在 YFCC100M 收集 的 交通 场景 数据 集 (Web dataset ) 


KITTI 数 # 


其 “Download left color images of object data set” 和 标注 文 


集中 第 1 个 图 
人 


“Download training labels of object data set”, 其 中 7 481 张 训练 


的 判别 仍然 遵循 每 一 种 假设 有 两 种 结果 的 四 种 可 能 性 


设 Di (j=1,2,…,n) 表示 一 种 


任何 二 元 假设 实验 问题 中 


a) Hi 假设 为 真 ， 判别 为 Di ,DH 


c) HY 假设 为 真 ， 判 别 为 Di; d) Hi 假设 为 真 ， 判 


a) 和 d) 对 
警 〈 没 有 月 
报 (有 目标 而 误 判 


标 而 识别 为 有 
为 没有 


作 判 别 时 要 考虑 4 种 可 能 性 


4 假设 为 真 ， 


目标 D; 识别 为 目标 Dr ( 大 = 上 2,……,7 ,大 关门 


标 j 选择 假设 已; 为 真 ， 


14] 。 


判别 为 DY ; 


别 为 Di 。 


标 j 选择 正确 ; b) 称 为 第 一 类 错误 ， 叫 做 虚 
标 ); c) 称 为 第 二 类 错误 ， 
标 )。 除 此 之 外 , 在 多 目标 识别 中 将 


叫做 漏 


的 错误 判别 。 


录用 稿 


设 目标 Z7 在 


判别 域 Zy 和 Zi 上 的 概率 密度 函数 分 别 为 


f(z|8。) 和 f(z'|87)， 则 有 

虚 警 率 p=>7 (pl) > (liye (19) 

漏 警 率 m=Pr(ole) = (hay (20) 

检测 率 : p=.e(D li) -3 I a ye CD) 

误 检 率 有 = 关 交 Po) 六 六 和 Ge) 和 92) 
标 分 类 中 ， 关 心 的 是 存在 的 目标 的 识别 效果 ， 识 别 率 一 


般 指 检测 率 。 根 据 定义 可 知 ， 虚 警 率 、 检 测 率 、 漏 警 率 与 误 检 


率 之 和 为 1。 在 实际 计算 时 ， 首 先 计算 识别 率 ， 再 计算 误 报 率 、 
二 一” 漏 报 率 ， 对 于 剩余 系统 识别 出 来 的 而 实际 不 存在 的 目标 种 类 作 
计数 来 计算 分 类 的 虚 警 率 。 对 于 多 目标 识别 中 的 虚 警 率 应 该 计 
< 算 一 定时 间 段 内 积累 的 虚 警 率 。 对 于 数据 集 ， 我 们 采用 求 平均 
@ 的 方式 来 计算 整体 的 虚 警 率 、 漏 警 率 、 检 测 率 、 误 检 率 。 
= 深度 学 习 通过 误差 的 反 向 传播 来 调整 神经 网 络 权 值 ， 达 到 
GO 建 模 的 目的 . 反 向 传播 送 代 次 数 从 几 万 次 逐步 增加 到 数 十 万 次 ， 
中 直到 训练 误差 趋 于 收敛 为 止 。 最 后 通过 计算 模型 在 测试 集 上 的 
ed 平均 准确 率 (average precision，4P) 和 所 有 类 别 的 平均 准确 率 
中 ”均值 (mean AP，m AP) 来 评价 模型 的 好 坏 。4P 从 召回 率 和 
GAN 准确 率 两 个 角度 衡量 检测 算法 的 准确 性 。4P 是 评价 深度 检测 
之 。 模型 准确 性 最 直观 的 标准 , 可 以 用 来 分 析 单个 类 别 的 检测 效果 。 
>< wu4P 是 各 个 类 别 4P 的 平均 值 , mAP 越 高 表示 模型 在 全 部 类 别 
2 中 检测 的 综合 性 能 越 高 bl。 
-二 34 实验 设计 
© 首先 将 各 个 策略 与 SSD512 进行 单独 结合 进行 相应 的 对 比 


实验 , 表明 各 个 策略 的 作 | 


 ; 然后 将 所 有 策略 与 SSD512 结合 ， 


对 最 终 的 改进 算法 


进行 整体 测评 。 


础 上 加 入 
动态 


用 训练 集训 练 原始 SSD512, 将 此 模型 记 为 M0, 在 MO 基 
自 适应 阔 值 策略 ， 生 成 模型 
局 部 区 域 放 大 策略 ， 生 成 模型 M2， 最 后 将 MO 与 所 有 策 


M1; 在 M0 基础 上 加 入 


Dataset 和 KITTI 数 ] 


ChinaXiv 合 
华 夏 ， 等 : 复杂 大 交通 场景 弱 
四 集中 的 测试 集 进行 测试 。 


3.5 实验 结果 


实验 结果 见 表 1、2, 分 别 对 比 了 模型 MO、M1、M3 在 KITTI 
和 WD 数据 集 上 普通 测试 集 的 识别 与 检测 效果 。 
表 1 各 模型 识别 精度 对 比 
AP(%) 
model dataset mAP(%) 
Person Car Cyclist 
KITTI 73.36 71.53 65.32 70.07 
MO 
WD 71.59 69.63 62.75 67.99 
KITTI 77.18 72.35 68.69 72.74 
MI 
WD 73.52 70.45 64.83 69.61 
KITTI 87.42 86.73 84.38 86.18 
M3 
WD 82.92 76.34 72.63 77.31 
表 2 各 模型 检测 效果 对 比 
model dataset Pr (%) Pm (%) Pd (%) Pe (%) 
KITTI 20.21 19.34 41.32 19.13 
MO 
WD 19.25 21.38 38.83 20.54 
KITTI 12.31 13.29 57.84 16.56 
MI 
WD 15.17 14.49 52.45 17.89 
KITTI 6.33 8.69 73.45 11.53 
M3 
WD 9.24 10.19 70.16 10.41 


对 比 表 1、2 中 MO 和 M3 测 结果 ， 在 KITTI 数据 集中 ， 各 
14~19% 不 等 ，mAP 提高 了 约 
16.11%， 虚 警 率 降 低 13.88%， 检 测 率 提高 32.13%， 漏 警 率 降 
低 10.65%， 误 检 率 降低 7.6%; 在 WD 数 提 


类 目 


标 检 测 的 4P 提高 了 


居 集 中 


Ph， 各 类 目标 检 


测 的 AP 提高 了 7~11% 不 等 ，mAP 提高 了 约 7.24%， 虚 警 率 


降低 10.01%， 检 测 
率 降 低 10.13%。 各 
补 SSD512 缺陷 的 有 效 性 。 

对 比 表 1、2 中 MO 和 M1 检测 结果 ， 
标 检测 的 4P 提高 了 1~4% 


各 类 晶 


2.67%， 虚 警 率 降低 7.90%， 检 测 率 提高 
6.05%， 误 检 率 降低 2.57%; 在 WD 数 ] 
的 AP 提高 了 1~3% 


在 KITTI 数据 集中 ， 
不 等 ，mAP 提高 了 约 
16.52%， 漏 警 率 降 低 
集中 ， 各 类 目 
等，mAP 提高 了 约 1.62%， 虚 警 率 降 


率 提高 31.33%， 漏 警 率 降 低 11.19%， 误 检 
项 指标 提升 明显 , 表明 本 文 策略 总 体 对 于 弥 


标 检 测 


略 结合 在 一 起 ， 生 成 模型 M3。 使 用 两 数据 库 测试 集 对 M0， 低 4.08%， 检 测 率 提高 13.62%， 漏 警 率 降 低 6.89% ， 误 检 率 降 
M1，M3 进行 测试 和 对 比 。 为 突出 低 分 辩 率 小 目标 检测 效果 ， 低 2.65%。MI1 模型 是 在 MO 基础 上 加 入 自 适 应 阔 值 策略 训练 
使 用 构造 的 小 目标 测试 集 分 别 对 M0 和 M2 进行 测试 和 对 ”得 到 的 ， 通 过 在 两 个 数据 库 上 的 测试 结果 与 M0 对 比 我 们 可 以 
J 发 现 ，M1 相 较 于 M0， 对 多 目标 的 检测 率 得 到 了 较 大 提高 ， 多 
另外 本 文选 取 了 Faster R-CNN、 不 需要 预 训练 模型 的 。 目标 检测 的 虚 警 率 和 漏 警 率 降低 明显 ， 表 明 自 适应 阅 值 策略 发 
DSOD30005] (deeply supervised object detector) 检测 框架 RI 和 探 了 区 分 低 置 信和 度 真 目标 和 高 置信 度假 目标 的 作用 ， 能 够 有 效 
YOLO 系列 检测 框架 中 的 升级 版 YOLOY2 544 "0， 以 及 SSD 。 降低 SSD512 对 多 目标 检测 的 漏 警 率 和 虚 警 率 。 
的 改进 模型 DSSDU071 (deconvolutional single shot detector ) 作为 表 3、4 对 比 了 模型 MO、M2 在 KITTI 和 WD 数据 集 上 低 
深度 学 习 对 比 算法 ， 与 M3 对 比 Web Dataset 和 KITTI 数据 集 ”分 辨 率 小 目标 测试 集 的 检测 效果 。 


上 的 检测 效果 。 对 比 检测 框架 算法 


的 默认 参数 设置 ， 


用 作者 发 布 的 官方 代码 中 
与 M3 在 相同 训练 集中 进行 训练 。 利 用 Web 


de AAA 


chinaXiv 
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表 3 M0 和 M2 模型 低 分 辨 率 小 目标 识别 精度 
AP(%) 
model dataset mAP(%) 
Person Car Cyclist 
KITTI 13.63 19.38 9.73 14.25 
MO 
WD 8.59 16.33 8.53 11.15 
KITTI 77.45 80.19 58.68 72.11 
M2 
WD 65.62 70.49 52.39 62.83 
表 4 M0 和 M2 模型 低 分 辨 率 小 目标 检测 效果 
model dataset Pr (%) Pm (%) Pd (%) Pe (%) 
KITTI 14.25 33.12 29.43 10.14 
MO 
WD 11.15 34.15 30.48 6.45 
KITTI 10.82 10.17 60.48 18.53 
M2 
WD 11.91 14.85 52.03 21.21 
对 比 表 3、4 中 MO 和 M2 检测 结果 ， 在 KITTI 数据 集 


各 类 目标 检测 的 AP 提 


高 了 49~64% 不 等 


，MmAP 提高 了 约 


57.86%， 虚 警 率 降低 22.3%， 检 测 率 提高 50.34%， 漏 警 率 降 低 


19.26% ， 误 检 率 降低 8.78%; 
的 4P 提高 了 44~57% 不 等 
降低 22.24%， 检 测 率 提 
率 降低 6.71% 。 
域 放 大 策略 训练 得 到 的 ， 


在 WD 数据 集中 ， 各 类 


， mAP 提高 了 约 


标 检 测 
51.68%， 虚 警 率 


高 43.58% ， 漏 警 率 降 低 15.63%， 误 检 
M2 模型 是 在 M0 基础 上 加 入 加 入 动态 局 部 区 
通过 在 两 个 数据 库 上 低 分 辨 率 小 目标 


测试 集 的 测试 结果 对 比 我 们 可 以 发 现 ，M2 相 较 于 M0， 对 多 目 


标 低 分 辩 率 小 目标 的 识别 精度 和 检 


则 率 得 到 了 较 大 提高 ， 


检测 


的 误 检 率 、 虚 警 率 、 漏 警 率 降 低 明 显 ， 表 明 动 态 局 部 区 域 放大 


策略 对 低 分 辨 率 小 目标 检测 


和 识别 的 有 效 性 。 


于 低 分 辨 率 弱 


小 目标 类 别 难以 判定 ，M2 的 错误 检测 多 为 分 类 错误 造成 的 即 


误 检 率 高 ， 而 MO0 多 目标 检测 率 极 低 ， 


积 网 络 逐 层 抽取 特 


图 5 验证 了 M3 模型 中 


表明 了 SSD512 深度 卷 
征 的 同时 导致 低 分 辩 率 弱小 目标 信息 丢失 严 


R-Net 增益 效果 评估 的 有 效 性 。 第 


行 蓝 色 字 体 数字 指示 红色 


F 表示 精 检 测 检测 器 检 闹 


框 是 目标 的 置信 


度 。c 表示 粗 检 测 
结果 。 


红色 字体 表示 


R-net 的 精度 增益 。 正 值 和 负 值 标准 化 为 [0,1] 和 [ -1,0 )。 通 过 对 


比 可 以 发 现 对 
R-net 给 出 较 
精细 检测 比 粗略 检测 好 得 多 
的 精度 增益 分 数 。 


于 粗略 检测 足够 好 或 者 优 于 精细 检测 的 区 域 ， 
氏 的 精度 增益 分 数 《〈 第 工 列 条 
的 区 域 (第 3 列 )， 


I 第 2 列 )， 并 且 对 于 


R-net 给 出 较 高 


利用 Web Dataset 和 KITTI 数据 集中 的 普通 测试 集 进行 测 


试 。 检 测 识别 效果 如 表 5 所 示 ， 


帧 率 。 


其 中 FPS 代表 算法 运行 的 速度 ， 


对 比 表 5 中 M3 和 其 他 深度 学 习 对 比 算法 检测 结果 ， 在 


KITTI 数据 集中 ， 各 类 目标 识别 的 AP 提 
mAP 提高 了 约 9~15% 不 等 , 检测 率 提高 13~28%; 
提高 了 5~12% 不 等 


集中 ， 各 类 目标 识别 的 AP 


高 了 4~16% 不 等 ， 


在 WD 数据 
，mAP 提高 


约 4~9% 不 等 , 检测 率 提高 10~34%。 虽然 检测 识别 速率 比 不 上 


人 全 
oN 


DSOD300、DSSD513、YOLOv2 544 等 检测 算法 , 但 是 FPS 也 
能 达到 38 帧 /s， 能 够 满足 实时 性 的 要 求 。 


图 5 R-Net 放大 精度 增益 效果 


表 5 各 检测 算法 检测 识别 效果 对 比 
AP(%) 
method dataset mAP(%) Pd(%) FPS 
person car cyclist 
KITTI 83.26 74.13 75.42 77.61 45.22 13.15 
Faster R-CNN 
WD 81.49 71.33 68.65 73.82 36.63 11.64 
KITTI 77.43 72.26 68.38 72.69 58.68 58.23 
DSOD300 
WD 70.73 69.39 67.04 69.05 52.32 50.35 
KITTI 75.46 69.53 68.34 71.11 59.42 46.34 
DSSD513 
WD 72.19 68.83 66.45 69.16 49.79 39.38 
KITTI 79.43 71.25 67.32 72.66 60.82 56.74 
YOLOv2 544 
WD 73.29 69.63 68.85 70.59 54.86 49.28 
KITTI 87.42 86.73 84.38 86.18 73.45 37.56 
M3 
WD 82.92 76.34 72.63 77.31 70.16 32.83 
4 ”结束 语 


针对 现 有 基于 大 数据 和 深度 学 习 的 目标 检测 框架 对 于 高 分 
辩 率 复杂 大 场景 中 低 分 辨 率 小 目标 识别 效果 较 差 ， 多 目标 检测 
的 精度 和 实时 性 难以 平衡 的 问题 ， 改 进 了 基于 深度 学 习 的 目标 
伟 测 框架 SSD, 提出 一 种 改进 的 多 目标 检测 框架 DRZ-SSD, 将 
其 专用 于 复杂 大 交通 场景 多 目标 检测 。 经 过 实验 验证 ， 改 进 策 
略 有 效 弥补 了 传统 SSD 的 缺陷 ,在 应 对 弱小 目标 、 多 目标 、 杂 
乱 背 景 、 遮 挡 等 检测 难度 较 大 的 情况 时 , 均 能 获得 较 好 的 效果 ， 
实现 了 算法 精度 与 运行 速率 的 平衡 。 由 于 卷 积 神经 网 络 的 结构 
不 适合 处 理 时 序 信 息 ， 结 合 递归 神经 网 络 上 《一 类 具有 记忆 功 
能 的 神经 网 络 ) 来 解决 视频 目标 检测 和 跟踪 问题 ， 将 是 下 一 
工作 的 重点 。 
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